#Deep Think
Google殺瘋了Gemini 3 推理模式封神,碾壓 GPT-5.2,科研工程界迎終極神器
2026 年 AI 科研賽道再迎王炸!Google官宣 Gemini 3 Deep Think 推理模式重磅升級,劍指科學研究與工程落地的複雜難題,多項基準測試成績直接刷新全球紀錄,不僅碾壓 GPT-5.2、Claude Opus 4.6 等競品,更達到世界頂尖程式設計師、奧賽金牌級水平。更重磅的是,Google首次開放該模式 API 早期訪問,科研人和工程師的效率天花板,直接被重新定義!實測封神!全維度霸榜,多項成績碾壓主流大模型此次升級的 Gemini 3 Deep Think,最硬核的底氣就是實打實的測試成績,在數學、物理、程式設計、抽象推理等全維度高難度基準測試中,實現全面霸榜,無工具加持下的表現堪稱驚豔。在抽象推理核心測試 ARC-AGI-2 中,它拿下 84.6% 的超高正確率,遠超 Claude Opus 4.6 的 68.8% 和 GPT-5.2 的 52.9%,成績直接斷層領先。“終極人類考試” 中,48.4% 的得分也甩開 Claude 的 40.0%、GPT-5.2 的 34.5%,盡顯高階推理實力。程式設計領域更是直接封神,Codeforces 競賽程式設計基準中斬獲 3455 的 Elo 評分,遠超 Gemini 3 原版的 2512 和 Claude 的 2352,達到世界頂尖程式設計師水準。而在 2025 年國際奧賽中,數學、物理、化學理論測試均拿下金牌級成績,物理更是達到 87.7% 的正確率,把 GPT-5.2 的 70.5% 遠遠甩在身後。就連多模態理解、凝聚態物理理論等偏門高難領域,它也表現亮眼,MMMU-Pro 測試 81.5% 正確率、CMT-Benchmark 50.5% 得分,均大幅領先主流競品,真正實現了 “文理通吃、科工全能”。直擊痛點!專為科研工程而生,破解真實場景難題Google此次升級並非單純的參數堆砌,而是精準瞄準科研和工程場景的核心痛點 —— 真實工作中資料雜亂、問題邊界模糊、需要長鏈路邏輯推理,而 Deep Think 就是為解決這些問題量身打造。它摒棄了大模型常見的 “表面化推理”,擁有更深度的邏輯鏈分析能力,能處理科研中複雜的因果推導、工程裡精密的流程最佳化。Google已展示其實際應用價值:協助數學家快速發現論文中的邏輯漏洞,從繁雜的公式推導中定位問題;助力工程師最佳化半導體晶體生長工藝,通過多維度資料分析找到工藝提升的關鍵節點。不同於普通大模型只能做 “輔助性文案工作”,Deep Think 能真正深度參與科研和工程的核心環節,從理論分析到實際落地,提供可落地、可驗證的解決方案,讓 AI 從 “工具” 變成真正的 “科研夥伴”。重磅開放!API 解鎖,兩類使用者率先嘗鮮在成績亮眼、應用落地的雙重加持下,Google此次也邁出了關鍵一步 —— 打破封閉,首次開放 Gemini 3 Deep Think 的使用權限,讓頂尖 AI 能力走出實驗室,真正服務於科研和產業界。目前該模式已面向Google AI Ultra 訂閱使用者全面開放,這類使用者可直接體驗全功能的深度推理能力。更值得關注的是,Google首次通過Gemini API,向部分研究人員、工程師及企業提供早期存取權,這意味著相關從業者可將該模型接入自有系統、科研平台,實現定製化的深度應用。從以往的 “專屬封閉” 到如今的 “有限開放”,Google的這一動作,也讓全球科研和工程界看到了頂尖 AI 技術普惠的可能,未來無論是高校的基礎研究,還是企業的工程落地,都有望借助這一工具實現效率躍升。行業震動!AI 科研工具迎來新拐點,競爭再升級Gemini 3 Deep Think 的升級與開放,不僅讓科研人和工程師迎來 “效率神器”,更在全球 AI 行業引發連鎖震動,讓大模型的競爭從 “通用能力比拚” 轉向 “專業場景深耕”。此前,主流大模型更多聚焦於通用對話、內容生成,在專業科研工程領域的表現始終差強人意,而Google此次精準卡位高難度專業場景,用實打實的成績證明了大模型在硬核領域的落地價值。這也給其他 AI 廠商指明了方向:單純的參數競賽已無意義,能解決真實專業問題的模型,才擁有真正的核心競爭力。對於科研和工程界而言,這一升級更是一場效率革命 —— 以往需要團隊數天甚至數月的邏輯推導、工藝最佳化、程式碼編寫,如今借助 Deep Think 可能幾小時就能完成,大大縮短了研究和開發周期。而隨著 API 的逐步開放,未來還將催生更多基於該模型的專業工具,推動科研和工程領域的智能化升級。從全維度霸榜的測試成績,到直擊痛點的場景落地,再到打破封閉的 API 開放,Google Gemini 3 Deep Think 的此次升級,每一步都踩在了 AI 行業的核心發展點上。它不僅展現了Google在大模型領域的技術領先,更讓我們看到了 AI 賦能硬核科研、推動產業升級的無限可能。隨著頂尖 AI 技術的逐步普惠,科研和工程的智能化時代,已然加速到來! (硬核科技喵)
清華傳奇姚順宇立功!全新Gemini一夜血洗程式設計,全球僅7人能贏它
【新智元導讀】剛剛,GoogleGemini 3 Deep Think原地進化!在Codeforces比賽中拿下全球第七,擊敗了人類選手。短短三個月,全方位刷爆SOTA。猝不及防,GoogleDeepMind深夜又放大招了!今天,Gemini 3 Deep Think重磅升級,幾乎刷爆全領域的SOTA,標誌著AI推理能力進入了全新維度。離職Anthropic入職Google的華人學者姚順宇參與了Gemini 3 Deep Think這一次,在科學研究和硬核工程領域,Deep Think堪稱一個「最強大腦」。它可以將草圖渲染成一個高保真、實用的3D筆記型電腦支架圖,並直接將其列印出來。GoogleVP曬出這個副項目,最終的成品是這樣子的。新版Deep Think的實力究竟有多恐怖?在程式設計界,它刷出了3455 Elo的驚人分數,達到世界冠軍級的水準,衝入了Codeforces比賽人類TOP 10!也就是說,全球只有7人擊敗了Gemini 3 Deep Think,一年前,最強o3也僅拿下2727 Elo。在人類最後考試(HLE)上,Gemini 3 Deep Think刷新SOTA,拿下了48.4%的成績。甚至,它在一夜之間讓最難的ARC-AGI-2基準直接飽和,以84.6%新SOTA一騎絕塵。與Gemini 3 Pro相比,Deep Think實現了全方位反超,並將Claude Opus 4.6、GPT-5.2直接踩在了腳下。更令人震撼的是,Gemini 3 Deep Think的實戰表現。羅格斯大學數學家Lisa Carbone在研究時,讓它審查一篇高深的物理數學論文。結果,Deep Think竟發現了一個連人類同行評審,都遺漏的細微邏輯漏洞。Gemini 3 Deep Think這波史詩級進化,又讓某些人睡不著了。目前,Google AI Ultra訂閱使用者即可在Gemini中體驗新版Deep Think。同時,首次通過API向部分研究人員、工程師和企業開放。實力刷爆SOTA,奧賽金牌大滿貫去年,Deep Think專門版成功解決了推理領域最艱巨的任務,在數學和程式設計世界錦標賽中奪下金牌。就在昨天,GoogleDeepMind還做了一個預熱。背靠初代Deep Think的「AI數學家」Aletheia可以獨立撰寫論文,證明了「Erdős猜想」中多個難題。不僅如此,Deep Think直接推翻了十年猜想,一舉攻克18大研究瓶頸。而現在,迭代後的Deep Think已在多項高難度的基準測試中刷新SOTA:人類最後的考試(HLE):設定了新標竿,在不使用工具的情況下精準率達48.4%;ARC-AGI-2:達到了前所未有的84.6%,並獲得ARC獎項基金會的驗證;演算法競賽平台Codeforces:Elo評分達到了驚人的3455分;2025 IMO:達到金牌水平。除了數學和演算法競賽,Gemini 3 Deep Think現在在化學和物理等廣泛的科學領域也表現優異。在2025年國際物理奧林匹克和化學奧林匹克的筆試部分,新版Deep Think同樣具備了金牌實力。此外,它在高級理論物理方面也遊刃有餘,在CMT-Benchmark測試中取得了50.5%的成績。另外,Gemini 3 Deep Think在ARC-AGI-1上,直接頂到頭了。官方演示中,Gemini 3 Deep Think可以根據論文,為「時空循環視訊Transformer」架構建立一個可視化方案。Deep Think殺入科研,十倍加速除了頂尖的性能表現,Deep Think還突破了智能邊界,能夠解決科學、研究和工程領域的現代難題。它不僅能幫助科研人員解讀複雜資料,還能輔助工程師通過程式碼對物理系統建模。在早期測試中,許多科學家在科研工作流中,顯著提升了研究產出質量。在杜克大學,Wang Lab用Deep Think最佳化了複雜晶體生長的製造方法,以用於潛在的半導體材料發現。令人意想不到,Deep Think成功設計出了一種生長大於100 μm薄膜的配方,達到了以前方法難以實現的精確目標。Google平台與裝置部門的研發主管Anupam Pathak表示——我不是CAD設計師,但有了Deep Think,可以直接將草圖變成可3D列印的實物。它會分析繪圖,對複雜形狀進行建模,並生成3D列印所需的模型檔案,讓物理零部件建模加速十倍。只需傳送一張圖片、一個提示詞,它就能夠深入思考,便可以提供幾個之前自己從未設想過的全新設計方案。Deep Think將深厚的科學知識與實用的工程能力相結合,超越了抽象理論,真正開始推動實際應用。網友驚豔實測,物理模擬太強在實測中,Gemini 3 Deep Think展現出超強的物理模擬能力。它可以模擬光線追蹤,在瀏覽器中就可以實現。並且還可以在單個HTML檔案中,建構出一個完整的Three.js場景,渲染出博物館中古典油畫難以區分的全3D室內房間。Simon Willison用Gemini 3 Deep Think畫了一張鵜鶘騎自行車的SVG向量圖,效果非常驚豔。他表示,這是自己目前見過最棒的一版了。既然在處理那條基礎的「生成一張鵜鶘騎自行車的SVG」指令時表現得這麼出色,Simon決定加大難度,試個更有挑戰性的版本:生成一張加州褐鵜鶘騎自行車的SVG圖像。自行車必須要有輻條,車架形狀要精準。鵜鶘必須具備其標誌性的大喉囊,且要有清晰的羽毛細節。必須能清楚地看出鵜鶘正在蹬車。圖像需要展示加州褐鵜鶘完整的繁殖羽特徵。結果如下:這一次,Google讓AI真正滲透進了科研工作的「最後一公里」:審閱論文、工業設計、實驗最佳化,無所不包。當AI能夠揪出連人類審稿人都忽略的邏輯漏洞時,「輔助工具」這四個字顯然已經配不上它了。如今,壓力球拋回給了OpenAI。面對Google這記直擊痛點的「深思」回擊,奧特曼的下一張王牌,必須足夠震撼。 (新智元)